Search CORE

106 research outputs found

Evaluation of Load Scheduling Strategies for Real-Time Data Warehouse Environments

Author: Lehner Wolfgang
Thiele Maik
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 13/01/2023
Field of study

The demand for so-called living or real-time data warehouses is increasing in many application areas, including manufacturing, event monitoring and telecommunications. In fields like these, users normally expect short response times for their queries and high freshness for the requested data. However, it is truly challenging to meet both requirements at the same time because of the continuous flow of write-only updates and read-only queries as well as the latency caused by arbitrarily complex ETL processes. To optimize the update flow in terms of data freshness maximization and load minimization, we propose two algorithms - local and global scheduling - that operate on the basis of different system information. We want to discuss the benefits and drawbacks of both approaches in detail and derive recommendations regarding the optimal scheduling strategy for any given system setup and workload

Qucosa

HSSS - Hochschulschriftenserver der SLUB

Technische Universität Dresden: Qucosa

POIESIS: A tool for quality-aware ETL process redesign

Author: Abelló Gamazo Alberto
Lehner Wolfgang
Theodorou Vasileios
Thiele Maik
Publication venue
Publication date: 01/01/2015
Field of study

We present a tool, called POIESIS, for automatic ETL process enhancement. ETL processes are essential data-centric activities in modern business intelligence environments and they need to be examined through a viewpoint that concerns their quality characteristics (e.g., data quality, performance, manageability) in the era of Big Data. POIESIS responds to this need by providing a user-centered environment for quality-aware analysis and redesign of ETL flows. It generates thousands of alternative flows by adding flow patterns to the initial flow, in varying positions and combinations, thus creating alternative design options in a multidimensional space of different quality attributes. Through the demonstration of POIESIS we introduce the tool's capabilities and highlight its efficiency, usability and modifiability, thanks to its polymorphic design. © 2015, Copyright is with the authors.Peer ReviewedPostprint (published version

UPCommons. Portal del coneixement obert de la UPC

A machine learning approach for layout inference in spreadsheets

Author: Koci Elvis
Lehner Wolfgang
Romero Moral Óscar
Thiele Maik
Publication venue: 'Scitepress'
Publication date: 01/01/2016
Field of study

Spreadsheet applications are one of the most used tools for content generation and presentation in industry and the Web. In spite of this success, there does not exist a comprehensive approach to automatically extract and reuse the richness of data maintained in this format. The biggest obstacle is the lack of awareness about the structure of the data in spreadsheets, which otherwise could provide the means to automatically understand and extract knowledge from these files. In this paper, we propose a classification approach to discover the layout of tables in spreadsheets. Therefore, we focus on the cell level, considering a wide range of features not covered before by related work. We evaluated the performance of our classifiers on a large dataset covering three different corpora from various domains. Finally, our work includes a novel technique for detecting and repairing incorrectly classified cells in a post-processing step. The experimental results show that our approach deliver s very high accuracy bringing us a crucial step closer towards automatic table extraction.Peer ReviewedPostprint (published version

UPCommons. Portal del coneixement obert de la UPC

Superharte Werkstoffe auf Basis von Borsuboxid (B6O)

Author: Thiele Maik
Publication venue
Publication date: 02/10/2014
Field of study

Mit einer Einkristallhärte von 45 GPa stellt Borsuboxid (B6O) einen aussichtsreichen Kandidaten für die Entwicklung neuartiger, superharter und verschleißbeständiger Strukturwerkstoffe dar, dessen Verwendungspotential derzeitig sowohl aufgrund eines schwieriges Verdichtungsverhaltens als auch der geringen Bruchzähigkeit polykristalliner B6O-Werkstoffe limitiert ist. Motiviert durch einen möglichen Einsatz von B6O als kosteneffektive Alternative zu aktuell etablierten, hochdrucksynthetisierten Werkstoffen auf Basis von Diamant und kubischem Bornitrid (c-BN), widmet sich die vorliegende Arbeit diesen Defiziten und untersucht auf Grundlage eines unter Normaldruckbedingungen synthetisierten B6O-Pulvers die Herstellung und Eigenschaften keramischer B6O-Werkstoffe mit flüssigphasenbildenden Al2O3/Y2O3-Sinteradditiven (Gesamtadditivgehalt: 2 – 15 Vol.-%; Al2O3/(Al2O3+Y2O3): 0,05 – 1) unter Anwendung verschiedener Verdichtungstechnologien (Feldaktivierte Sintertechnologie/Spark Plasma Sintern, FAST/SPS; heißisostatisches Pressen, HIP; kubische Vielstempel-Hochdruckpresse, KVP). Zusätzlich wurde eine nicht-reaktive und eine reaktive Präparationsroutine für die Herstellung von B6O/TiB2-Kompositen mit variablen TiB2-Gehalten von 6 – 57 Vol.-% evaluiert. Den Schwerpunkt bildeten dabei die Charakterisierung ausgewählter mechanischer und thermischer Eigenschaften, wie sie für den Einsatz in Schneid- und Verschleißprozessen relevant sind und deren Korrelation mit der Phasen- und Gefügeausbildung als Grundlage für eine weiterführende Optimierung der Werkstoffeigenschaften. Es konnte gezeigt werden, dass sowohl oxidische Sinteradditive (bevorzugter Gesamtadditivgehalt ≤ 3 Vol.-%) als auch die Präparation von B6O/TiB2-Kompositen (bevorzugt: reaktive Herstellungsroutine) vielversprechende Ansätze für die reproduzierbare Herstellung vollständig verdichteter B6O-Werkstoffe mit einer gesteigerten Bruchzähigkeit von 3 – 4 MPa√m (SEVNB) bei gleichzeitig hohen Härten bis 36 GPa (HV0,4) bzw. 28 GPa (HV5), einer Festigkeit bis 540 MPa und einem E-Modul von 400 – 500 GPa darstellen. Die Hochtemperaturhärte (HV5) der Werkstoffe übersteigt ab 600 °C teilweise die Warmhärte eines ebenfalls untersuchten, kommerziellen c-BN-Referenzmaterials. Wärmeleitfähigkeiten bis 20 W/mK (Raumtemperatur) bzw. 17 W/mK (1000 °C) und thermische Ausdehnungskoeffizienten bis 1000 °C von 5,76 – 6,54×10 6/K wurden ermittelt. Der anhand eines Reibradtests untersuchte Verschleißwiderstand erreicht das Niveau von kommerziellem Borcarbid (B4C). Damit weisen B6O-Werkstoffe insgesamt ein vergleichbares Eigenschaftsprofil zu (isostrukturellen) B4C-Werkstoffen auf, ordnen sich jedoch meist deutlich unterhalb der Leistungsfähigkeit kommerzieller c-BN-Materialien ein. Die Gegenüberstellung verschiedener Sintertechnologien unter Berücksichtigung der Reproduzierbarkeit des Verdichtungsprozesses, der Homogenität der resultierenden Gefüge, der physikalischen Eigenschaften als auch der Wirtschaftlichkeit privilegiert insbesondere die Verdichtung mittels HIP und FAST/SPS (für B6O mit oxidischen Sinteradditiven nur für geringe Additivgehalte) als vielversprechendste Verfahren für eine mögliche Kommerzialisierung von B6O. Eine abschließende Bewertung des Anwendungspotentials von B6O-Werkstoffen erfordert weiterführende Untersuchungen zu den Mechanismen, die zur Erniedrigung der Härte von polykristallinem B6O-Werkstoffen gegenüber B6O-Einkristallen sowie dem sprunghaften Anstieg der Bruchzähigkeit mit geringen Additivgehalten und das Erreichen eines Plateauwertes führen. Hierbei zeichnen sich eine veränderte B6O-Struktur (Kristallchemie/Defekte) und/oder die Beschaffenheit der Korngrenzen als wahrscheinlichste Ursachen ab, deren Rolle auf Grundlage der zur Verfügung stehenden Methodik im Rahmen dieser Arbeit nicht vollständig aufgeklärt werden konnte

Technische Universität Dresden: Qucosa

Qualitätsgetriebene Datenproduktionssteuerung in Echtzeit-Data-Warehouse-Systemen

Author: Thiele Maik
Publication venue
Publication date: 31/05/2010
Field of study

Wurden früher Data-Warehouse-Systeme meist nur zur Datenanalyse für die Entscheidungsunterstützung des Managements eingesetzt, haben sie sich nunmehr zur zentralen Plattform für die integrierte Informationsversorgung eines Unternehmens entwickelt. Dies schließt vor allem auch die Einbindung des Data-Warehouses in operative Prozesse mit ein, für die zum einen sehr aktuelle Daten benötigt werden und zum anderen eine schnelle Anfrageverarbeitung gefordert wird. Daneben existieren jedoch weiterhin klassische Data-Warehouse-Anwendungen, welche hochqualitative und verfeinerte Daten benötigen. Die Anwender eines Data-Warehouse-Systems haben somit verschiedene und zum Teil konfligierende Anforderungen bezüglich der Datenaktualität, der Anfragelatenz und der Datenstabilität. In der vorliegenden Dissertation wurden Methoden und Techniken entwickelt, die diesen Konflikt adressieren und lösen. Die umfassende Zielstellung bestand darin, eine Echtzeit-Data-Warehouse-Architektur zu entwickeln, welche die Informationsversorgung in seiner ganzen Breite -- von historischen bis hin zu aktuellen Daten -- abdecken kann. Zunächst wurde ein Verfahren zur Ablaufplanung kontinuierlicher Aktualisierungsströme erarbeitet. Dieses berücksichtigt die widerstreitenden Anforderungen der Nutzer des Data-Warehouse-Systems und erzeugt bewiesenermaßen optimale Ablaufpläne. Im nächsten Schritt wurde die Ablaufplanung im Kontext mehrstufiger Datenproduktionsprozesse untersucht. Gegenstand der Analyse war insbesondere, unter welchen Bedingungen eine Ablaufplanung in Datenproduktionsprozessen gewinnbringend anwendbar ist. Zur Unterstützung der Analyse komplexer Data-Warehouse-Prozesse wurde eine Visualisierung der Entwicklung der Datenzustände, über die Produktionsprozesse hinweg, vorgeschlagen. Mit dieser steht ein Werkzeug zur Verfügung, mit dem explorativ Datenproduktionsprozesse auf ihr Optimierungspotenzial hin untersucht werden können. Das den operativen Datenänderungen unterworfene Echtzeit-Data-Warehouse-System führt in der Berichtsproduktion zu Inkonsistenzen. Daher wurde eine entkoppelte und für die Anwendung der Berichtsproduktion optimierte Datenschicht erarbeitet. Es wurde weiterhin ein Aggregationskonzept zur Beschleunigung der Anfrageverarbeitung entwickelt. Die Vollständigkeit der Berichtsanfragen wird durch spezielle Anfragetechniken garantiert. Es wurden zwei Data-Warehouse-Fallstudien großer Unternehmen vorgestellt sowie deren spezifische Herausforderungen analysiert. Die in dieser Dissertation entwickelten Konzepte wurden auf ihren Nutzen und ihre Anwendbarkeit in den Praxisszenarien hin überprüft.:1 Einleitung 1 2 Fallstudien 7 2.1 Fallstudie A: UBS AG . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 Unternehmen und Anwendungsdomäne . . . . . . . . . . . . 8 2.1.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 13 2.2 Fallstudie B: GfK Retail and Technology . . . . . . . . . . . . . . . . 15 2.2.1 Unternehmen und Anwendungsdomäne . . . . . . . . . . . . 15 2.2.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 20 3 Evolution der Data-Warehouse- Systeme und Anforderungsanalyse 23 3.1 Der Data-Warehouse-Begriff und Referenzarchitektur . . . . . . . . . 23 3.1.1 Definition des klassischen Data-Warehouse-Begriffs . . . . . . 23 3.1.2 Referenzarchitektur . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Situative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.1 Interaktion zwischen IT und Fachbereich . . . . . . . . . . . 31 3.2.2 Spreadmart-Lösungen . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 Analytische Mashups und dienstorientierte Architekturen . . 35 3.2.4 Werkzeuge und Methoden im Kostenvergleich . . . . . . . . . 40 3.3 Evolution der Data-Warehouse-Systeme . . . . . . . . . . . . . . . . 40 3.3.1 Nutzung von Data-Warehouse-Systemen . . . . . . . . . . . . 41 3.3.2 Entwicklungsprozess der Hardware- und DBMS-Architekturen 46 3.4 Architektur eines Echtzeit-Data-Warehouse . . . . . . . . . . . . . . 50 3.4.1 Der Echtzeit-Begriff im Data-Warehouse-Umfeld . . . . . . . 50 3.4.2 Architektur eines Echtzeit-Data-Warehouses . . . . . . . . . . 51 3.4.3 Systemmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5 Anforderungen an ein Echtzeit-Data-Warehouse . . . . . . . . . . . . 55 3.5.1 Maximierung der Datenaktualität . . . . . . . . . . . . . . . 55 3.5.2 Minimierung der Anfragelatenz . . . . . . . . . . . . . . . . . 56 3.5.3 Erhalt der Datenstabilität . . . . . . . . . . . . . . . . . . . . 57 4 Datenproduktionssteuerung in einstufigen Systemen 59 4.1 Qualitätskriterien und Systemmodell . . . . . . . . . . . . . . . . . . 59 4.1.1 Dienstqualitätskriterien . . . . . . . . . . . . . . . . . . . . . 60 4.1.2 Datenqualitätskriterien . . . . . . . . . . . . . . . . . . . . . 63 4.1.3 Multikriterielle Optimierung . . . . . . . . . . . . . . . . . . 64 4.1.4 Workload- und Systemmodell . . . . . . . . . . . . . . . . . . 66 4.2 Multikriterielle Ablaufplanung . . . . . . . . . . . . . . . . . . . . . 68 4.2.1 Pareto-effiziente Ablaufpläne . . . . . . . . . . . . . . . . . . 68 4.2.2 Abbildung auf das Rucksackproblem . . . . . . . . . . . . . . 71 4.2.3 Lösung mittels dynamischer Programmierung . . . . . . . . . 74 4.3 Dynamische Ablaufplanung zur Laufzeit . . . . . . . . . . . . . . . . 78 4.4 Selektionsbasierte Ausnahmebehandlung . . . . . . . . . . . . . . . . 81 4.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.5.1 Experimentierumgebung . . . . . . . . . . . . . . . . . . . . . 84 4.5.2 Leistungsvergleich und Adaptivität . . . . . . . . . . . . . . . 86 4.5.3 Laufzeit- und Speicherkomplexität . . . . . . . . . . . . . . . 87 4.5.4 Änderungsstabilität . . . . . . . . . . . . . . . . . . . . . . . 89 4.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5 Bewertung von Ladestrategien in mehrstufigen Datenproduktionsprozessen 5.1 Ablaufplanung in mehrstufigen Datenproduktionsprozessen . . . . . 96 5.1.1 Ladestrategien und Problemstellung . . . . . . . . . . . . . . 97 5.1.2 Evaluierung und Diskussion . . . . . . . . . . . . . . . . . . . 98 5.2 Visualisierung der Datenqualität in mehrstufigen Datenproduktionsprozessen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.2.1 Erfassung und Speicherung . . . . . . . . . . . . . . . . . . . 110 5.2.2 Visualisierung der Datenqualität . . . . . . . . . . . . . . . . 111 5.2.3 Prototypische Umsetzung . . . . . . . . . . . . . . . . . . . . 114 5.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6 Konsistente Datenanalyse in operativen Datenproduktionsprozessen 119 6.1 Der Reporting-Layer als Basis einer stabilen Berichtsproduktion . . 120 6.1.1 Stabilität durch Entkopplung . . . . . . . . . . . . . . . . . . 120 6.1.2 Vorberechnung von Basisaggregaten . . . . . . . . . . . . . . 121 6.1.3 Vollständigkeitsbestimmung und Nullwertsemantik . . . . . . 125 6.1.4 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.1.5 Prozess der Anfrageverarbeitung mit Vollständigkeitsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.1.6 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 127 6.1.7 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . . . . . 133 6.2.1 Einleitendes Beispiel und Vorbetrachtungen . . . . . . . . . . 134 6.2.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . 136 6.2.3 Anfrageverarbeitung auf nullwertkomprimierten Daten . . . . 143 6.2.4 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 146 6.2.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 7 Zusammenfassung und Ausblick 157 Literaturverzeichnis 161 Online-Quellenverzeichnis 169 Abbildungsverzeichnis 17

Technische Universität Dresden: Qucosa

A Domain-Specific Language for Do-It-Yourself Analytical Mashups

Author: Eberius Julian
Lehner Wolfgang
Thiele Maik
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 26/01/2023
Field of study

The increasing amount and variety of data available in the web leads to new possibilities in end-user focused data analysis. While the classic data base technologies for data integration and analysis (ETL and BI) are too complex for the needs of end users, newer technologies like web mashups are not optimal for data analysis. To make productive use of the data available on the web, end users need easy ways to find, join and visualize it. We propose a domain specific language (DSL) for querying a repository of heterogeneous web data. In contrast to query languages such as SQL, this DSL describes the visualization of the queried data in addition to the selection, filtering and aggregation of the data. The resulting data mashup can be made interactive by leaving parts of the query variable. We also describe an abstraction layer above this DSL that uses a recommendation-driven natural language interface to reduce the difficulty of creating queries in this DSL

Qucosa

HSSS - Hochschulschriftenserver der SLUB

Technische Universität Dresden: Qucosa

Multi-objective scheduling for real-time data warehouses

Author: Bader Andreas
Lehner Wolfgang
Thiele Maik
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 19/01/2023
Field of study

The issue of write-read contention is one of the most prevalent problems when deploying real-time data warehouses. With increasing load, updates are increasingly delayed and previously fast queries tend to be slowed down considerably. However, depending on the user requirements, we can improve the response time or the data quality by scheduling the queries and updates appropriately. If both criteria are to be considered simultaneously, we are faced with a so-called multi-objective optimization problem. We transformed this problem into a knapsack problem with additional inequalities and solved it efficiently. Based on our solution, we developed a scheduling approach that provides the optimal schedule with regard to the user requirements at any given point in time. We evaluated our scheduling in an extensive experimental study, where we compared our approach with the respective optimal schedule policies of each single optimization objective

Qucosa

HSSS - Hochschulschriftenserver der SLUB

Technische Universität Dresden: Qucosa

Modeling Customers and Products with Word Embeddings from Receipt Data

Author: Lehner Wolfgang
Thiele Maik
Woltmann Lucas
Publication venue: 'Association for Computing Machinery (ACM)'
Publication date: 15/09/2022
Field of study

For many tasks in market research it is important to model customers and products as comparable instances. Usually, the integration of customers and products into one model is not trivial. In this paper, we will detail an approach for a combined vector space of customers and products based on word embeddings learned from receipt data. To highlight the strengths of this approach we propose four different applications: recommender systems, customer and product segmentation and purchase prediction. Experimental results on a real-world dataset with 200M order receipts for 2M customers show that our word embedding approach is promising and helps to improve the quality in these applications scenarios

Qucosa

HSSS - Hochschulschriftenserver der SLUB

Technische Universität Dresden: Qucosa